@汪蓝玉朱玉彬:《数字人文视域下二十四史论赞引语的言据性研究》
主要方法是数数。分词-匹配(人工筛选)-数数-(画图)。数了:言说动词、引述来源、论赞句的其他句子成分(副词、语气词以判断主观态度)
细节:标准化频数:每千词出现频率,可以减少语料库大小的影响。
知识点:言据性
摘要
本文采用SikuBERT预训练模型、语料库工具Wordless和数据可视化工具Gephi,结合定量和定性分析,从常用引述动词、信息来源指称和引述者对信息的主观态度表达等方面考察了二十四史论赞引语的言据性。研究发现:
- 论赞引语以“曰”和“谓”为主要引述动词。
- 信息来源多为儒家经典言论。
- 不常用语言形式传达言者对引述信息的主观态度,小部分主观态度由句末语气词、情态副词和邻接小句等形式传达。
这些特征说明论赞引语是史家在历史语境中主观选择传递和建构信息的言据策略,具有增加话语权威性、丰富语言感染力和教化劝说读者等语用功能。
引言
数字人文利用语料库、数据库和各种分析方法,为人文学科带来了数据驱动的研究范式。本文旨在探讨如何在数字人文视域下,将语料库方法与传统语言学研究相结合,更好地融合“数字”与“人文”。本文以二十四史论赞为语料,利用相关工具对论赞引语的言据性进行剖析,为历史语篇的语言研究提供数字人文的方法启示。
一、研究背景
(一)古汉语书面语篇中的引语
- 传统修辞学对古汉语书面语篇的引语展开过讨论,但缺乏语言学理论深度,对引语的界定也存在局限。
- 语言学层面的“引语”概念应涵盖引用辞格和转述话语。
- 引语的基本结构为“引导句+引用句”,常分为直接引语和间接引语。
- 古汉语书面语篇没有标点,引导直接引语和间接引语的言说动词划分存在争议,难以准确判断区分。
现有研究不足:
- 分析的语料涉及范围较广,针对某一种特定语体中引语使用特征的研究有待深入。
- 研究方法较为单一,数据驱动的方法不多见。
- 研究视角存在一定的局限性,相关研究多囿于对古书引语表面结构的讨论,对古人使用引语的主观意图以及引语的交际功能关注不够,也少有结合其他语言范畴的分析。
(二)引语的言据性
言据性(Evidentiality)是一种普遍存在于几乎所有语言中的语言现象,也称为传信范畴、实据性或示证范畴。它主要与以下两个方面有关:
-
信息来源的说明: 言据性标记会明确或暗示说话者获取信息的来源,例如是通过亲眼所见、亲耳所闻、推断、传闻等方式。
-
说话人对信息的态度: 言据性标记通常也反映了说话人对所报告信息的态度和可信度判断,例如是确信、怀疑、推测等等。
在语法层面上,言据性表现为据素/证素(Evidentials)或言据标记(Evidential Markers)。
举例说明:
- “我看见小王在打篮球” 这句话中的“看见”就是一种感官类的言据标记,表明说话者亲眼目睹了小王打篮球。
- “我听说小王在打篮球” 这句话中的“听说”是一种传闻类的言据标记,表明说话者是从别人那里听说的,并非亲身经历。
总结: 言据性是一种语言机制,用来标记信息的来源和说话者对信息的态度,它帮助听者理解信息的可靠性和说话者的立场。
本文主要考察论赞引语的言据性,引语是特殊的据素类型,属于转述类或传闻类言据。
本文将引语视为一种特定的说明信息来源和言者态度的言据策略,从常用引述动词、信息来源指称和引述者对信息的态度表达等方面考察论赞引语的使用特征和语用功能。
二、研究方法
(一)语料处理说明
本文语料为二十四史的论赞部分,来自数字化文渊阁本《四库全书》史部。利用Python编程,采用字符串匹配算法提取包含表1所列的论赞开头标记字段的段落,最终得到2,514段,总计418,022字。
表1 论赞的段落开头标记(略)
之后利用SikuBERT预训练模型的分词工具进行古文分词、利用SikuBERT词性标注微调模型进行词性标注,建立小型语料库。
(二)论赞引语的提取
以常见的古汉语言说动词为线索,在自建论赞语料库中抽取引语。步骤如下:
- 统计高频动词,发现论赞中引进引语的言说动词主要有“曰”“称”“谓”“言”和“云”。
- 利用语料库工具Wordless抽取这五个动词所在的索引行(共2,447条)。
- 人工对照原文逐一筛查核对,只保留五个动词表示“说”并引进引语的句子,最终得到923条引语。
三、结果与讨论
(一)结果分析
常用引述动词的使用
表2列出了五个引述动词在语料中的使用频次,表3展示了不同时期的使用分布。
表2 论赞引语中五个引述动词使用的原始频次
引述动词 | 总计 | 占比 |
---|---|---|
曰 | 402 | 43.55% |
谓 | 235 | 25.46% |
称 | 130 | 14.09% |
云 | 106 | 11.48% |
言 | 50 | 5.42% |
总计 | 923 | 100.00% |
表3 三阶段论赞引语中五个引述动词使用的标准化频数 (标准化频数/千词) |
引述动词 | 上古 | 中古 | 近代 |
---|---|---|---|
曰 | 2.98 | 0.69 | 1.10 |
谓 | 0.63 | 0.34 | 0.81 |
称 | 0.63 | 0.36 | 0.23 |
云 | 0.13 | 0.36 | 0.14 |
言 | 0.76 | 0.05 | 0.15 |
引语总数 | 5.13 | 1.8 | 2.43 |
Wordless的搭配分析和索引行的结果显示:
- “曰”主要用于直接引述,常与名词、言说动词或动词结构连用,也可与连词、副词连用,少数情况单用。
- “谓”在古汉语书面语中多用于间接转述,但在论赞引语中也常见于直接引用,常以“所谓”结构引进引语,“所谓”可省略信息来源指称独立使用,也可构成名词性偏正结构。
- “称”作为引述动词时,多为对名家或典籍名言的引用,有时也构成“所称......者”的名词性偏正结构,也可用于转述他人观点。
- “云”与“曰”相似,在古汉语中常用于直接引用,部分构成“有云”和“所云”标记引语,也可置于副词后用于引语并列连用。
- “言”也是古汉语的常用说类词之一,但常表示“谈论(某话题)”,引进引语时多为间接转述,论赞引语中由“言”作动词引进引语的用法相对较少。
信息来源指称
论赞引语中,信息来源指称通常邻接在引述动词前,主要由名词担任。表4列出了前十位常见信息来源指称。图1展示了信息来源指称与引述动词的搭配关系网络。
表4 论赞引语的主要信息来源指称分布
排序 | 信源指称 | 频次 |
---|---|---|
1 | 孔子(仲尼/子) | 74 |
2 | 古(古人/古语) | 56 |
3 | 诗 | 49 |
4 | 传 | 37 |
5 | 易 | 37 |
6 | 语 | 34 |
7 | 书 | 33 |
8 | 世 | 15 |
9 | 老子(/老氏/老聃) | 10 |
10 | 孟子(孟轲) | 8 |
合计 | 353 |
图1 主要信息来源指称与引述动词的搭配关系网络
- “孔子”的出现频次最高,与五个引述动词都有搭配,其中以“孔子曰”和“孔子称”最常见。
- “古(古人/古语)”主要构成“古所谓”,“古人”和“古语”则主要与“云”搭配。
- “诗”“传”“易”“语”“书”的频次也较高,均多与“曰”搭配,其中“诗”与“云”的搭配更多。
论赞引语对信息来源的说明有较高的明确度,较低明确度的信源指称如“古/古人/古语”“世”“昔人”等整体占比不大(不到10%)。无信源指称的情况(约占3.58%)多由“所谓”标记。
综上,论赞引语的信息来源指称明确度高,以引经据典为主,信源多来自孔子的言论以及《诗经》《左传》《尚书》《周易》《论语》等经典儒家典籍片段。低明确度信源和无信源的情况较少,无信源指称的情况多由“所谓”引导,部分具有特定的语篇功能。
引述者对信息的主观态度表达
- 句末语气词和情态副词均主要分布于“(所)谓”引进的引语中。
- 邻接小句多由表示“确实”的“信”或“诚”为中心构成的固定句式,紧接在引用句后。
- 少量其他形式的态度表达:有用其他形式的据素削弱后文引述信息的可靠性的,还有程度和范围副词等。
综上,论赞引语结构中表达言者对引述信息主观态度的标记不多见,小部分主观态度主要由句末语气词、情态副词和邻接小句等词汇和句式形式传达,分为确信和不确信。
(二)讨论
论赞引语的言据性分析:
- 引述动词:
- “曰”作为最常用的引述动词,其言说义在一定程度上虚化,主要作为言据标记,提醒读者关注信息来源和引述内容。
- “(所)谓”与“曰”不同,“所谓”在语用中浮现的主观评价义有关,更适用于辅助史家的主观评价,在语用上能够丰富语言的情感色彩。
- 信息来源指称:
- 论赞引语以引用儒家典籍为主,体现出史家以儒家伦理精神为指针评判人物和事件,强化读者对儒家思想的认知,有助于史家在历史语境中维护儒家礼教的道德秩序。
- 引述者对信息的主观态度:
- 表达主观态度的言据标记并不多见,说明史家对所引用的信息主要持肯定和确信的态度。
- 少数表达主观态度的言据标记具有明显的人际意义和语用功能,如道德劝说、逃避话语责任或缓和褒贬语气等。
结论
本文基于数字人文研究路径,对二十四史论赞引语的言据性进行了探讨,考察了论赞引语作为言据策略的使用特征和语用功能,既可拓展史书论赞的语言研究,也可丰富汉语引语和言据性的关联研究。后续研究可深入挖掘论赞中其他的引语标记、内部结构和言者主观态度的多种表达方式等问题。